URL

TL;DR

卷积实际上也是通过 image to column 操作变成 $y=Wx+b$ 操作

weight 和 input 都被量化为 int8 ，同时保留各自的量化 scale，乘法操作是整形乘法器（更快），累加器是 int32 类型，最后再量化为 int8 放到 OCM 上

均匀仿射量化也被称为 非对称量化，由三个量化参数定义：
- 比例因子 scale
- 零点 zero_point
- 比特宽度 bits
非对称量化：
- for unsigned integers: $X_{int} = clamp(\lfloor\frac{X}{s}\rceil+z;0,2^b-1)$
- for signed integers: $X_{int} = clamp(\lfloor\frac{X}{s}\rceil+z;-2^{b-1},2^{b-1}-1)$
- 这里的 $\lfloor\rceil$ 表示 round 运算
对称量化是非对称量化的简化版本，是将零点 zero_point 固定为 0
对称量化：
- for unsigned integers: $X_{int} = clamp(\lfloor\frac{X}{s}\rceil;0,2^b-1)$
- for signed integers: $X_{int} = clamp(\lfloor\frac{X}{s}\rceil;-2^{b-1},2^{b-1}-1)$
对称量化和非对称量化的含义：
2 的指数幂量化：
- 限制 $s=2^{-k}$
- 优势：scale 过程变成了硬件移位，对硬件更友好。
- 劣势：会使得 round 和 clip 误差的权衡变难。
量化颗粒度：
- per-tensor: 硬件更友好，但限制了量化的自由度。
- per-channel: 反之。

左边是定点计算过程，右边是用浮点设备模型定点计算的过程

为了减少数据搬运和不必要的量化步骤，通常会做：
- batch norm 折叠：batch norm 在推理时是静态的，因此可以和前面的 conv 等层合并。
- 激活函数融合：在实际的硬件解决方案中，通常会在非线性操作（如 ReLU）之后直接进行量化，而不是先将激活写入内存然后再加载回计算核心。

最大最小值法（min-max）： $q_{min}=minV,\ \ q_{max}=maxV$ ， $V$ 是待量化 tensor
均方差法（MSE）： $\argmin_{q_{min},q_{max}}||V-\hat{V}(q_{min}, q_{max})||^2_F$
交叉熵法（cross entropy）： $\argmin_{q_{min},q_{max}}=H(softmax(V),softmax(\hat{V}(q_{min},q_{max})))$ ，其中 $H$ 表示 cross entropy function
批量归一化法（BN based）： $q_{min}=min(\beta-\alpha\gamma),\ \ q_{max}=max(\beta+\alpha\gamma)$ ，其中 $\beta,\ \gamma$ 分布表示 batch norm 学到的 per channel 的 shift 和 scale， $\alpha>0$ 是超参数
组合法（comparsion）：以上方法的自由组合

使用不同量化方法分别量化 weight 和 activation 后的精度

这是一种 通过修改模型权重 来改善神经网络量化性能的技术，CLE 的目的是减少网络中不同 channel 之间由于量化引起的性能不平衡，这种问题在 depth-wise conv layer 中尤其容易出现。

mobilenetv2 第一个 depth-wise conv 层的 per output channel weight range